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网 要 : 在 仅 以 输入 评分 矩阵 作为 唯一 算法 输入 的 协同 过 wy 针对 数据 的 质量 不 同 带 来 的 差异 性 对 推 
结果 的 影响 这 一 问题 ， 包 括 对 数据 质量 方面 的 重视 与 关注 、 如 何 刻画 差异 性 以 及 如 何 针对 不 同 质量 数据 的 用 户 

组 别 进 行 分 组 推荐 建 模 等 问题 ， 提 出 针对 数据 质量 的 刻画 ， 综 合 考 虑 用 户 行为 一 致 性 和 用 户 信息 粒 两 个 指标 对 数据 质 
进行 评价 并 对 用 户 进行 分 组 。 对 于 不 同 组 别 的 用 户 在 分 析 其 历史 行为 的 基础 上 可 以 进行 更 精准 的 推荐 建 模 。 实 验 结 

J 数据 质量 的 差异 性 确实 对 推荐 精度 的 提升 有 着 重要 的 影响 ， 同 时 论证 了 对 用 户 进行 分 组 推荐 的 必要 性 。 实 验 

结果 同时 表明 ， 运 用 用 户 行为 一 致 性 和 用 户 信 息 粒 两 个 指标 的 综合 刻画 带 来 的 精度 提升 效果 最 为 显著 。 
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Collaborative filtering group recommendation based on 
information entropy and user behavior consistency 


Su Mengke, Yang Yupu 
(Key Laboratory of System Control & Information Processing, Ministry of Education of China, Dept. of Automation, Shanghai 
Jiao Tong University, Shanghai 200240, China) 


Abstract: For the scoring matrix as the unique algorithm input of the collaborative filtering recommendation algorithm, the 
differences in the quality of the data have great impact on the recommendation results, including arousing the attention to data 
quality, how to characterize quality differences, and how to group users and recommend on the basis of user groups with 
different quality data. This paper proposes a description of data quality, comprehensively considers the "user behavior 
consistency" and "user information entropy" to evaluate the data quality. Users of different groups can perform more accurate 
recommendation results based on analyzing their historical behavior. The experimental results show that the difference in data 
quality does have an important impact on the improvement of recommendation accuracy, and at the same time demonstrate the 
necessity of group recommendation. The experimental results also show that the accuracy of the combination of the two 
aspects of "user behavior consistency" and "user information entropy" is the most significant. 
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到 一 个 相似 度 高 的 用 户 集合 ， 利 用 两 个 用 户 之 间 存 在 共同 评分 
项 目 计算 用 户 之 间 的 相似 性 。 而 基于 模型 B41 的 协同 过 滤 推 荐 算 

互联 网 技术 的 快速 发 展 加 速 了 网 络 资源 的 急剧 膨胀 ， 每 天 评分 数据 对 用 户 评分 规律 进行 数学 建 模 , 其 中 矩阵 分 
都 有 大 量 的 信息 充斥 在 网 络 中 ， 这 种 膨胀 的 信息 过 载 问题 使 得 解 模型 局 把 用 户 和 项 目 了 映射 到 共同 的 低 维 隐 含 空间 ， 并 尝试 通 
用 户 通过 传统 的 检索 模式 去 寻找 自己 感 兴趣 的 信息 的 代价 越 来 ”过 用 户 和 项 目 在 隐 空 间 的 向 量 积 解释 评分 , 后 来 随 着 Netflix 大 
越 高 ， 同 时 用 户 也 很 难 对 爆炸 式 增长 的 信息 进行 有 效 的 处 理 和  ” 赛 的 发 展 ， 和 矩阵 分 解 及 其 改进 模型 因 突 出 表现 脱颖而出 。 
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Dau 
之 
环 

I 


利用 。 推 荐 系统 作为 当下 社会 解决 信息 过 载 问 题 的 一 项 重要 技 基于 模型 的 协同 过 滤 算 法 的 优点 在 于 可 以 提高 推荐 的 准确 
术 ， 已 经 被 广泛 地 应 用 在 各 大 平台 如 亚马逊 电子 商务 平台 和 一 ”性 ， 算 法 的 关键 在 于 利用 训练 数据 集 离线 学 习 一 个 预测 模型 ， 
些 社交 网 站 平台 。 其 中 基于 协同 过 滤 由 的 推荐 算法 自 出 现 以 来 ”而 算法 和 数据 是 影响 这 个 模型 准确 性 的 两 个 相当 重要 的 因素 。 
就 得 到 了 广泛 的 研究 和 应 用 ， 主 要 由 于 其 实现 的 简单 性 和 易 扩 ”推荐 算法 是 基于 数据 集 提供 的 数据 质量 不 存在 差异 ， 基 于 不 同 


展 性 。 经 典 的 基于 用 户 的 协同 过 滤 算法 


3 主要 是 为 每 个 用 户 找 ”用 户 的 行为 数据 都 准确 地 代表 了 用 户 的 真实 喜好 ， 继 而 在 建 模 
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时 对 所 有 用 户 进行 同等 看 待 不 加 分 类 。 但 是 在 现实 应 用 中 的 推 ”i 进行 了 观 影 评价 ， 则 ni 表示 相应 的 评分 ， 一 般 的 评分 矩阵 比 


荐 系统 如 电子 商务 平台 会 存在 一 些 恶意 用 户 给 出 参考 价值 很 小 较 和 稀疏， 用 户 未 评论 过 的 电影 在 矩阵 内 评分 用 0 表示 。 如 何 利 
的 用 户 反馈 ,而 有 些 用 户 的 反馈 会 十 分 有 利于 对 他 们 进行 推荐 。 用 已 有 的 评分 数据 通过 数学 建 模 的 方式 将 用 户 和 项 目 潜在 的 评 
即 不 同 用 户 的 行为 数据 在 质量 方面 存在 差异 性 ， 有 些 用 户 的 行 分 规则 公式 化 ,并 对 未 知 评分 进行 预测 是 进行 推荐 的 关键 步 又。 
为 前 后 比较 一 致 ， 反 馈 比 较 稳 定 ， 利 用 这 些 数据 不 仅 降低 建 模 表 1 评分 矩阵 

难度 ， 并 可 以 给 这 些 用 户 提供 更 精准 的 结果 ， 而 有 些 用 户 的 行 站 项 

为 前 后 反差 较 大 ， 对 模型 来 说 这 些 数 据 较 难 利用 且 结 果 也 不 够 i i 受 in 
准确 。 所 以 数据 的 质量 和 数量 极 大 地 影响 了 推荐 结果 的 准确 性 U1 1 ri2 村 Fin 

向 ， 即 数据 中 的 噪声 问题 ， 而 数据 中 的 噪声 问题 却 一 直 以 来 没 1 121 p22 a pan 

有 得 到 广泛 的 关注 。 推 荐 系统 的 噪声 一 般 可 以 分 为 两 类 : a) 为 pn, 本 fa pa ” 

了 某 种 目的 ， 为 了 提高 商业 利益 或 者 恶意 扰乱 而 出 现 的 蓄意 噪 lm rnl fm2 可 ji 

声 中 ;，b) 用 户 打 分 太 过 随意 ， 并 没有 真实 的 表达 自己 的 想法 的 和 矩阵 分 解 BMF 模型 是 隐语 义 模型 (latent factor model) 3 
自然 噪声 站 的 改进 模型 ， 因 为 其 在 推荐 系统 数据 比赛 Netflix 比赛 2009 年 


近来 的 相关 研究 只 是 单纯 地 把 数据 质量 问题 转换 为 部 分 去 的 杰出 表现 而 成 为 最 热门 的 推荐 算法 。 和 矩阵 分 解 模 型 
品 问 题 ,如 Chirita 等 人 四 提出 了 一 种 识别 恶意 用 户 的 评价 指标 ， BiasedMF(Biased matrix factorization) 算 法 通过 寻找 一 个 低 维 的 
Bilge 等 人 09 为 了 识别 恶意 用 户 和 水 军 账号 ， 采 用 K- 均 值 聚 类 隐 含 因子 空间 ， 把 原始 用 户 和 项 目 映 射 到 这 一 低 维 空间 ， 项 
算法 划分 不 同 的 用 户 组 别 ，Cao 等 人 呈 提 从 半 监 督 i 映射 成 向 量 4 , 向 量 分 量 表 示 项 目 i 对 这 些 基本 因子 的 包含 程 
( semi-shilling attack detection，Semi-SAD) 的 角度 出 发 ， 利 用 少 度 , 用 户 u 映射 成 向 量 p， 向量 分 量 是 用 户 对 该 因子 的 偏好 程 
量 数据 预 训练 一 个 贝 叶 斯 分 类 器 再 自 适应 于 所 有 数据 得 到 最 终 。 度 的 表征 。 经 过 低 维 映射 后 ， 某 用 户 u 对 某 项 目 i 的 偏好 程度 


的 分 类 器 。 这 些 方法 虽然 使 得 噪声 引起 的 推荐 精度 问题 得 到 了 可 以 用 用 户 和 物品 向 量 的 内 积 gj7 py 来 表示 。 
解决 , 但 是 共同 次 端 在 于 需要 训练 复杂 的 模型 , 并 且 调 参 复 杂 ， 基于 矩阵 分 解 的 推荐 算法 以 所 示 和 矩阵 作为 算法 的 输入 ， 通 
而 噪声 只 是 数据 质量 的 一 种 体现 。 过 挖掘 用 户 和 项 目的 隐 含 潜在 因子 进行 数学 建 模 ， 并 对 用 户 未 


刘 江 冬 等 人 9 提出 借鉴 信息 粹 的 概念 ， 综合 考虑 用 户 信 息 。 知 的 评分 进行 预测 。 本 文选 用 BiasedMF(BMF) 算 法 为 基础 ， 融 
| 


炳 和 评分 时 效 性 过 渡 部 分 用 户 ， 从 而 提高 推荐 的 准确 性 。 于 脑 ”合用 户 的 信息 人 和 行为 一 致 性 提出 了 改进 方案 BMF 的 基本 算 
华 71 从 数据 的 角度 综合 考量 数据 的 质量 和 数量 问题 ， 对 评分 数 。 ”法 如 下 

据 进行 分 组 , 分 析 了 数据 的 质量 和 数量 差异 对 推荐 结果 的 影响 。 i 
张 佳 等 人 (9 借鉴 用 户 信息 炉 来 表达 用 户 的 评分 分 布 ， 并 确定 评 

分 倾向 性 程度 ， 在 传统 的 基于 用 户 的 协同 过 滤 算 法 中 确定 某 一 Pui =bui tg pu 二 
用 户 的 最 近邻 时 利用 信息 糖 将 某 些 明显 倾向 不 同 的 用 户 别 除 ， I 
提高 了 最 后 的 推荐 精度 。 高 浴 华 等 人 9 综合 考虑 信息 粹 和 模糊 ey 
聚 类 ， 利 用 信息 炳 衡量 来 属 度 的 不 确定 性 ， 提 出 融合 信息 精 加 式 (1) 表 示 评 分 的 偏 置 项 构成 ,其 中 表示 整体 平均 信 ， 有 所 
权 的 模糊 聚 类 协同 过 滤 算法 ， 在 提高 推荐 精度 的 同时 简化 了 算 。 ”表示 用 户 偏 置 ，5% 表 示 项 目 偏 置式 (2) 表 示 预 测评 分 由 模型 预 
法 的 复杂 度 。Kluver 等 人 外 提出 可 以 用 信息 糯 刻 画 用 户 的 评分 。” 测 结果 和 偏 置 项 构成 。 训 练 模型 使 得 无 限 接近 于 i ， 即 转 


质量 ，Bellogfn 等 人 0 通过 分 析 用 户 历史 行为 提出 一 种 新 的 评 。 ” 换 成 式 (3) 所 示 的 最 优化 问题 ， 其 中 4 表示 正则 化 项 ， 目 的 是 为 
分 质量 评价 。 为 了 充分 说 明 数 据 质 量 对 推荐 结果 的 影响 ， 本 文 ”了 提高 模型 的 泛 化 能 力 。 选 择 常 用 的 随机 梯度 下 降 法 寻找 到 最 
综合 考虑 信息 烂 和 用 户 行为 一 致 性 来 共同 全 面 地 刻画 不 同 质量 。 优 的 P 和 Q。 模 型 训练 好 以 后 ， 就 可 以 对 用 户 未 评分 电影 进行 
的 数据 ， 并 提出 基于 不 同 质量 和 数量 的 数据 子 集 的 分 组 协同 过 ”预测 ， 并 按照 评分 从 高 到 低 的 集合 进行 推荐 。 


Sa 


滤 推荐 算法 。 本 文 提出 综合 考虑 用 户 评分 两 种 极端 情况 随意 和 ”1.2 噪声 问题 

集中 来 分 析 用 户 质量 ， 将 用 户 分 为 不 同 质量 的 数据 子 集 并 进行 大 多 相关 学 者 的 研究 工作 都 是 收集 到 原始 的 评分 矩阵 ， 根 
分 组 推荐 ， 进 一 步 实 现 了 针对 不 同 用 户 的 个 性 化 建 模 ， 并 提高 。 据 某 种 策略 将 数据 分 为 训练 集 和 测试 集 ,然后 进行 建 模 与 测试 。 
了 推荐 精度 。 因为 评分 矩阵 作为 协同 过 滤 算 法 的 唯一 输入 ， 所 以 评分 矩阵 的 


1 ”问题 基本 描述 


出 


质量 差异 性 会 在 很 大 程度 上 影响 算法 的 最 终结 果 。 如 何 刻 画 不 
用 户 的 评分 质量 , 并 对 用 户 进行 分 组 推荐 是 本 文 关心 的 问题 。 
1.1 基本 模型 BMF 为 了 分 析 评 分 质量 的 差异 与 推荐 精度 的 关系 ， 针 对 不 同 的 
矩阵 分 解 模型 的 输入 如 表 1 所 示 。 表 1 中 显示 的 是 m 个 用 用 户 存在 不 同 程度 的 噪声 数据 的 问题 ， 本 文 针对 数据 中 的 噪声 
户 对 n 个 项 目的 所 有 的 评分 集合 ， 其 中 如 果 用 户 u 对 某 个 项 目 问题， 综合 考 虑 用 户 信 息 粹 和 用 户 历史 行为 来 刻画 用 户 的 评分 
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质量 差异 ， 并 将 用 户 分 为 不 同 的 质量 子 集 。 根 据 文献 [8] 指 出 的 。 ”假设 用 户 行为 前 后 连贯 表现 在 对 同 种 类 型 或 者 相近 类 型 地 评分 
可 信和 度 低 的 用 户 的 评分 存在 过 于 集中 ， 如 评分 一 边 倒 或 者 只 是 。 偏差 较 小 ， 利 用 用 户 在 相似 物品 空间 的 评分 偏差 来 定义 用 户 行 
针对 某 些 特定 的 目标 的 问题 ， 本 文 引入 信息 炉 来 刻画 用 户 评分 ”为 的 稳定 性 。 对 任 一 用 户 有 过 评分 行为 的 项 目 划分 为 不 同 的 特 
质量 。 信 息 糖 可 以 表征 随机 变量 的 取 值 不 确定 性 的 情况 ， 刻 画 “， 征 空间 ， 假 设 Ru 7) 表示 用 户 对 特定 特征 空间 的 物品 的 评分 集 
一 个 随机 变量 的 概率 分 布 情况 ， 随 机 变量 的 信息 糯 的 值 与 其 分 ” 合 ，if 表示 用 户 在 这 一 特征 下 的 评分 平均 值 ，R(uF) 表示 用 户 
布 的 混乱 程度 成 正比 。 设 某 一 变量 的 信息 粮 定 义 如 式 (9) 所 示 。 ”u 的 所 有 评分 集合 , 则 用 户 行为 一 致 性 Cx() 可 以 用 用 户 在 各 种 
特征 空间 的 评分 下 的 偏差 来 表征 ， 如 式 (8) 所 示 。 
AD=-|7onwronw 加 
CW= | 》 ta-iyy 0) 
式 (4) 可 知 ， 信 息 烂 与 变量 的 概率 分 布 密切 相关 ， 用 户 信 Te 
息 灶 可 以 反映 用 户 评分 的 丰富 程度 ， 如 果 用 户 信息 灶 过 低 ， 即 |Ree 7 
CW = 一 》C2FCO0DT 一 下 
可 表示 用 户 的 评分 过 于 集中 。 > lae a ®) 
但 是 如 果 只 是 过 滤 掉 集 中 性 过 强 的 用 户 ， 那 些 打 分 丰富 的 人 
用 户 的 并 不 一 定 都 是 可 靠 的 评分 ， 所 以 不 能 单独 以 集中 性 来 刻 。 ”整体 评分 方差 ， 实 质 为 用 户 的 特定 评分 方差 的 加 权 平均 ， 其 什 
画 用 户 的 评分 质量 。 根 据 Bellogin 提出 的 基于 用 户 历史 行为 数 。 ”与 用 户 行为 一 至 性 成 正比 关系 ， 用 户 行为 前 后 行为 一 致 ， 则 这 
据 引 入 用 户 行为 一 致 性 12 来 从 另 一 个 角度 衡量 用 户 的 评分 质 。 部 分 用 户 较 容易 建 模 。 
量 。 用 户 行为 一 致 性 反映 了 用 户 的 评分 是 否 前 后 连贯 ， 可 根据 BR] Er 
这 一 指标 将 用 户 划分 为 行为 一 致 性 程度 较 高 和 较 低 的 不 同 组 二 es Re 
别 。 综 合 考虑 用 户 信息 炳 和 用 户 行为 一 致 性 分 析 不 同 的 数据 质 on : ft 
量 对 推荐 结果 的 影响 。 = Yew 
2 ”模型 改进 | wo 
wm 忆 : 
2.1 评分 的 质量 刻画 es oi 
2.1.1 引入 用 户 信息 业 刻 画 用 户 评分 质量 | “pm 
如 何 对 评分 矩阵 的 质量 差异 性 进行 刻画 ， 如 何 将 不 同 的 用 图 1 用 户 行为 一 至 性 


户 分 为 不 同 的 质量 子 集 ， 本 文 从 数据 的 噪声 的 角度 来 刻画 数据 


2.2 用 户 分 组 并 进行 分 组 推荐 


的 质量 ， 并 提出 综合 分 析 用 户 的 信息 烂 和 历史 行为 来 分 析 用 户 本 文 对 所 提 的 Ci(w) 和 Cz(w) 采用 顺序 式 用 户 分 组 ， 通 过 对 
评分 的 质量 。 根 据 式 (4) 的 定义 ， 假 设 {8 =1. 芒 i 表示 用 户 u 。 用 户 的 评分 数据 分 析 ， 每 个 用 户 得 到 相应 的 CIGD) 和 cado) 。 对 
的 所 有 评分 信息 。 对 用 户 u， 定 义 用 户 评分 取 值 的 概率 为 该 评 。 于 信息 粹 这 个 评价 指标 ， 由 于 信息 炳 是 针对 用 户 评分 数据 具有 
级 出 现 的 次 数 与 评分 总 次 数 的 占 比 ， 即 PBs 如 式 (5) 所 示 ， 用 户 边 倒 的 特点 而 定义 的 , 所 以 首先 根据 Cico) 将 用 户 信息 炳 较 低 
的 信息 焙 定 义 为 Ci) 如 式 (6) 所 示 。 的 用 户 采 取 直 接 过 滤 的 方式 ， 即 在 原始 数据 中 保留 评分 质量 有 
好 的 大 部 分 数据 ， 然 后 根据 C2() 的 值 将 用 户 聚 类 为 困难 用 户 
Be 和 容易 用 户 ， 分 析 不 同 组 别 的 质量 差异 性 对 推荐 精度 的 影响 。 
2 3 ”实验 与 分 析 

3.1 实验 数据 集 
人 = 》-BeE(BRe) (6) 为 了 测试 数据 的 质量 差异 性 对 最 终 推荐 精度 的 影响 ， 以 及 
St 验证 质量 指标 的 有 效 性 和 分 组 推荐 的 必要 性 ， 利 用 著名 的 
用 户 信息 烂 反 映 了 用 户 评分 偏 水 军 特点 的 可 能 性 。 根 据 文 。 Movielens1M (ml-1m) 电影 评分 公开 真实 数据 集 04 对 本 文 提出 
中 公式 定义 ,用 户 信息 焙 偏 低 则 表明 用 户 偏 水 军 的 可 能 性 越 高 。 ”的 算法 进行 实验 评估 。 该 数据 集 包括 6 000 多 用 户 的 评分 数据 1 
2.1.2 基于 用 户 历史 行为 刻画 用 户 评分 质量 000 209 条 ， 每 个 用 户 评论 的 电影 在 20 部 以 上 ， 有 3 900 
基于 用 户 的 历史 评分 行为 ， 如 图 1 表示 两 个 用 户 对 类 似 题 。 部 电影 。 其 中 评分 值 反 映 了 用 户 对 电影 的 喜爱 程度 ， 评 分 值 越 
材 分 布下 的 电影 的 评分 集合 ， 基 于 用 户 的 评分 高 低 反 应 用 户 的 。 ”大 代表 用 户 对 电影 评价 越 高 。 该 数据 集 属于 数据 量 易 处 理 里 涵 
好 恶 ,图 1 左 的 用 户 相对 于 爱情 和 伦理 片 更 喜欢 惊悚 类 的 电影 ， 盖 信息 比较 丰富 的 数据 集 , 在 用 户 的 数据 质量 方面 存在 差异 性 ， 

而 图 工 各 的 用 户 的 行为 风气 比较 分 般 ， 不 易 搓 所 规 符 。 长 过 适合 进行 此 次 验证 。 

来 有 理由 相信 图 1 中 的 用 户 〈 左 ) 评分 相对 于 用 户 〈 右 ) 比较 。 3.2 评价 指标 

稳定 ， 因 为 用 户 ( 左 ) 对 于 相似 类 型 的 电影 评分 也 比较 相似 。 不 同 的 评价 指标 适用 于 不 同 的 研究 环境 。 由 于 本 文 主要 是 
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为 了 体现 不 同 质量 数据 组 对 推 
量 差异 性 造成 的 推荐 精度 的 


针对 数据 质量 差异 性 进行 刻画 ， 
荐 精度 的 影响 ， 并 分 析 针 对 不 同 质 
影响 , 本 文采 用 评分 预测 中 的 均 方 根 误 差 (RMSE)5 指标 作为 此 
次 实验 的 评估 。RMSE 是 通过 利用 在 训练 集 上 得 到 的 模型 对 未 
知 评分 进行 预测 后 计算 预测 的 用 户 评分 和 实际 的 用 户 评分 之 差 


来 评估 推荐 精度 。RMSE 因 其 直观 表征 推荐 的 精度 而 被 广泛 采 
用 。RMSE 与 推荐 精度 成 反比 ， 如 式 (9) 和 (10) 所 示 。 
(9) 
RMSE(u) = 
DRMSE() a0) 
RMSE = 2 
3.3 ”实验 步骤 
3.3.1 刻画 用 户 评分 质量 
对 数据 集中 的 用 户 作 为 基准 , 对 于 每 一 条 用 户 的 评分 数据 ， 


计算 相应 的 用 户 信息 粹 和 用 户 行为 一 致 性 , 得 到 
图 2、3 所 示 ， 一 致 性 C2(w) 如 图 4、5 所 示 。 


言 奶 灶 G2 如 


出 户 信息 烧 分 布 
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图 2 用 户 信息 粹 ( 归 一 化 之 后 ) 
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图 3 用户 信息 入 数量 统计 
图 2 和 3 分别 表示 对 6 040 个 用 户 的 信息 炉 的 分 布 和 数 
统计 ， 大 部 分 的 评分 质量 是 可 靠 的 。Ci(w) 取 不 同 阔 值 ， 通 过 
闵 值 为 CCo = {0.10.2…0.8}， 发 现 取 C1(w) =0.5 时 精度 提升 最 大 ， 
之 后 随 着 Ci(w) 的 增 大 , 会 使 评分 矩阵 越 来 越 稀疏 ， 从 而 也 影响 
E 荐 的 精度 。 


弦 用 
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用 户 编码 (userlD ) 
图 4 用 户 行为 一 致 性 


3.3.2 用 户 分 组 推荐 
首先 对 用 
滤 。 对 于 低 于 阔 值 的 ) 
户 的 做 法 。 实 验 表明 C1(w)=0.5 的 情况 下 ， 精 
在 此 基础 上 根据 C2(w) 的 值 将 用 户 分 为 困难 | 
户 《 取 C2(w)=-8) ， 此 时 ， 


容易 用 


50%， 以 排 


te1] 。 具 
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图 5 用 户 行为 一 致 性 数量 统计 


户 评分 数据 ， 


采取 直接 划 


户 根据 Gi(w) 的 值 ， 选 取 不 同 的 阔 值 进行 数据 过 
H 除 这 一 部 分 用 


度 提升 最 大 。 


困难 


中 si 


户 组 江 


两 组 用 


分 别 表示 为 fe、 


=(wa,teq) 表示 对 困难 用 


表示 对 容易 用 


据 建 模 


户 组 建 模 


站 组 建 模 推荐 ， 


户 和 容易 用 
分 数量 为 509 623， 
户 组 的 评分 数量 为 490 586, 两 组 分 别 接近 原始 数据 集 的 
除数 据 数量 对 推荐 结果 的 影响 。 
折 交 叉 验 证 划分 为 数据 集 和 训练 集 ， 


站 都 采用 5 
tee 、 tra、 


$4 = (tro, fee) 


E 荐 ， s2 =(wz Utrastee Uteq) 表 示 原 始 数 


E 荐 (对 比 的 基准 )， 


滤 之 后 的 用 
下 的 误差 RMSE， 其 中 


门 组 进行 建 模 推荐 。 图 


5 表示 对 原始 数据 进行 信息 业 过 
6 表示 不 同 质量 分 组 的 情况 
FP 横 轴 (2.3,4) 分 别 表示 (ss2,s3,s4) 。 


1 1.5 2 25 
不 网 用户 分 组 


a 3.5 


图 6 不 同 质量 情况 下 的 误差 RMSE 
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3.3.3 对 比 实验 


本 文 提出 的 融合 用 户 信息 炳 和 用 户 行为 一 臻 性 改进 的 基于 参考 广 亲 


模型 的 协同 过 滤 算 法 (ABME) 对 比 基 本 的 BMEF 算法 ，RMSE 指 [1] Chu Wei, Park S T. Personalized recommendation on dynamic contents 
标 降低 了 1.1%。 文献 [16] 提 出 的 UEITMEF 方法 融合 信息 粹 和 时 using predictive bilinear models [C]// Proc of the 18th International 
效 性 的 改进 ， 考 虑 了 实时 动态 这 一 特性 ， 但 是 相 较 原始 方法 精 Conference on World Wide Web. New York: ACM Press, 2009: 691-700. 


度 提升 不 明显 ， 而 且 增 加 了 算法 的 复杂 度 。 文 献 [17] 只 是 从 数 [2] 沈 键 , 杨 煜 普 . 基于 二 阶段 相似 度 学 习 的 协同 过 滤 推 荐 算法 [四 . 计算 


据 质 量 的 角度 考虑 ， 单 一 地 考虑 了 用 户 前 后 行为 的 变化 ， 推 荐 机 应 用 研究 , 2013, 30 (3): 715-719. (Shen Jian, Yang Yupu. Collaborative 
精度 也 有 一 定 提 升 。Entropy-based-CFU8 是 在 基于 用 户 的 协同 filtering recommendation algorithm based on two stages of similarity 
过 滤 的 基础 上 融合 信息 录 ， 算 法 的 逻辑 性 和 理解 性 较 高 。 不 同 learning [J]. Application Research of Computers, 2013, 30 (3): 715-719. ) 
算法 的 RMSE 对 比如 表 2 所 示 。 [3] 吴 金 龙 . Netflix Prize 中 的 协同 过 滤 算 法 [D]. 北京 : 北京 大 学 , 2010. 
表 2 不 同 算法 的 RMSE 对 比 (Wu Jinlong. Collaborative filtering algorithm in the Netflix Prize [D]. 
算法 BMF ABMF UEITMF09 文献 [17] Entropy-pased-CF09 Beijing: Beijing University, 2010. ) 
RMSE 0.861 0.852 0.859 0.855 0.865 [4] Robert B, Yehuda K, CHRIS V. Modeling relationships at multiple scales 
3.4 实验 结果 分 析 to improve accuracy of large recommender Systems [C]// Proc of the 13th 
对 比 s 和 3 ,不 考虑 用 户 行 为 一 致 性 ， 只 对 用 户 进 行 信息 ACM SIGKDD International Conference on Knowledge Discovery and 
炉 过 滤 ， 虽 然 取 Ci(w) =0.5 的 情况 下 ， 推 荐 的 精度 由 0.861 4 降 Data Mining. New York: ACM Press, 2007: 95-104. 
低 到 0.859 4， 效 果 微 弱 ,， 但 是 这 一 质量 指标 的 提出 对 于 大 数据 。 [5] Koren 立 Bell R, Volinsky C. Matrix factorization techniques for 
情况 下 分 析 如 电子 商务 系统 中 刷 单 的 行为 应 该 会 具有 明显 的 效 recommender systems [J]. Computer 2009, 42 (8): 30-37. 
果 。 [6] 孟 祥 起 刘 树 栋 ， 张 玉 洁 ,等 .社会 化 推荐 系统 研究 [四 . 软件 学 报 ， 
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C2(u) 的 值 分 组 ， 如 图 6 所 示 ，51 表示 在 困难 用 户 子 集 上 建 模 ， Research on social recommender systems [J]. Journal of Software, 2015, 
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在 容易 用 户 子 集 上 测试 ; s3 相对 于 s2 推荐 精度 提升 了 0.2%; s4 [7] Gunes I, Kaleli C, Bilge A, et al. Shilling attacks against recommender 
相对 于 sz 推荐 精度 提升 了 1.1%，s4 相对 5 推荐 指标 变化 了 systems: a comprehensive survey [J]. Artificial Intelligence Review, 2014, 
3.2%。 推 荐 精度 的 变化 说 明 进 行 分 组 推荐 是 十 分 必要 的 ， 并 42 (4): 767-799. 
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